在现实世界设置下自动发现视觉模型中的故障仍然是一个开放的挑战。这项工作说明了如何利用大量数据培训的现成,大规模,图像到文本和文本对象模型如何自动找到此类故障。本质上,有条件的文本到图像生成模型用于生成大量的合成,但现实的输入,给定了地面真相标签。错误分类的输入是聚类的,并使用字幕模型来描述每个群集。每个集群的描述依次使用来生成更多的输入,并评估特定簇是否会导致比预期更多的故障。我们使用该管道来证明我们可以有效地询问在Imagenet上训练的分类器以找到特定的故障案例并发现虚假相关性。我们还表明,我们可以扩展针对特定分类器体系结构的对抗数据集的方法。这项工作是概念验证,证明了大规模生成模型的实用性,以开放式方式自动发现视觉模型中的错误。我们还描述了与这种方法相关的许多局限性和陷阱。
translated by 谷歌翻译
Most benchmarks for studying surgical interventions focus on a specific challenge instead of leveraging the intrinsic complementarity among different tasks. In this work, we present a new experimental framework towards holistic surgical scene understanding. First, we introduce the Phase, Step, Instrument, and Atomic Visual Action recognition (PSI-AVA) Dataset. PSI-AVA includes annotations for both long-term (Phase and Step recognition) and short-term reasoning (Instrument detection and novel Atomic Action recognition) in robot-assisted radical prostatectomy videos. Second, we present Transformers for Action, Phase, Instrument, and steps Recognition (TAPIR) as a strong baseline for surgical scene understanding. TAPIR leverages our dataset's multi-level annotations as it benefits from the learned representation on the instrument detection task to improve its classification capacity. Our experimental results in both PSI-AVA and other publicly available databases demonstrate the adequacy of our framework to spur future research on holistic surgical scene understanding.
translated by 谷歌翻译
石油场和地震成像的储层模拟被称为石油和天然气(O&G)行业中高性能计算(HPC)最苛刻的工作量。模拟器数值参数的优化起着至关重要的作用,因为它可以节省大量的计算工作。最先进的优化技术基于运行大量模拟,特定于该目的,以找到良好的参数候选者。但是,在时间和计算资源方面,使用这种方法的成本高昂。这项工作提出了金枪鱼,这是一种新方法,可增强使用性能模型的储层流仿真的最佳数值参数的搜索。在O&G行业中,通常使用不同工作流程中的模型合奏来减少与预测O&G生产相关的不确定性。我们利用此类工作流程中这些合奏的运行来从每个模拟中提取信息,并在其后续运行中优化数值参数。为了验证该方法,我们在历史匹配(HM)过程中实现了它,该过程使用Kalman滤波器算法来调整储层模型的集合以匹配实际字段中观察到的数据。我们从许多具有不同数值配置的模拟中挖掘了过去的执行日志,并根据数据提取的功能构建机器学习模型。这些功能包括储层模型本身的属性,例如活动单元的数量,即模拟行为的统计数据,例如线性求解器的迭代次数。采样技术用于查询甲骨文以找到可以减少经过的时间的数值参数,而不会显着影响结果的质量。我们的实验表明,预测可以平均将HM工作流程运行时提高31%。
translated by 谷歌翻译
Delimiting salt inclusions from migrated images is a time-consuming activity that relies on highly human-curated analysis and is subject to interpretation errors or limitations of the methods available. We propose to use migrated images produced from an inaccurate velocity model (with a reasonable approximation of sediment velocity, but without salt inclusions) to predict the correct salt inclusions shape using a Convolutional Neural Network (CNN). Our approach relies on subsurface Common Image Gathers to focus the sediments' reflections around the zero offset and to spread the energy of salt reflections over large offsets. Using synthetic data, we trained a U-Net to use common-offset subsurface images as input channels for the CNN and the correct salt-masks as network output. The network learned to predict the salt inclusions masks with high accuracy; moreover, it also performed well when applied to synthetic benchmark data sets that were not previously introduced. Our training process tuned the U-Net to successfully learn the shape of complex salt bodies from partially focused subsurface offset images.
translated by 谷歌翻译
图表学习通常是处理或代表结构化数据的必要步骤,当没有明确给出底层图。图表学习通常以完全了解图形信号的全部知识,即涉及图形节点上的数据。但是,有些设置可以容易地或仅具有不可忽略的通信成本来收集数据。在这种情况下,分布式处理看作是一种自然解决方案,其中数据保持主要是本地,并且在通信图上的邻居节点中执行所有处理。我们在此提出了一种新型分布图学习算法,其允许在数据在目标图上平滑的假设下从节点上的信号观察推断图。我们通过本地投影约束解决了分布式优化问题,以推断有效图,同时限制通信成本。我们的结果表明,分布式方法的通信成本低于集中式算法,而不会影响推断图中的精度。随着网络大小的增加,它还可以在通信成本方面更好地缩放,特别是对于稀疏网络。
translated by 谷歌翻译
Panoptic semonation组合实例和语义预测,允许同时检测“事物”和“东西”。在许多具有挑战性的问题中有效地接近远程感测的数据中的Panoptic分段可能是吉祥的,因为它允许连续映射和特定的目标计数。有几个困难阻止了遥感中这项任务的增长:(a)大多数算法都设计用于传统图像,(b)图像标签必须包含“事物”和“填写”类,并且(c)注释格式复杂。因此,旨在解决和提高遥感中Panoptic分割的可操作性,这项研究有五个目标:(1)创建一个新的Panoptic分段数据准备管道,(2)提出注释转换软件以产生Panoptic注释; (3)在城市地区提出一个小说数据集,(4)修改任务的Detectron2,(5)评估城市环境中这项任务的困难。我们使用的空中图像,考虑14级,使用0,24米的空间分辨率。我们的管道考虑了三个图像输入,所提出的软件使用点Shapefile来创建Coco格式的样本。我们的研究生成了3,400个样本,具有512x512像素尺寸。我们使用了带有两个骨干板(Reset-50和Reset-101)的Panoptic-FPN,以及模型评估被视为语义实例和Panoptic指标。我们获得了93.9,47.7和64.9的平均iou,box ap和pq。我们的研究提出了一个用于Panoptic Seation的第一个有效管道,以及用于其他研究人员的广泛数据库使用和处理需要彻底了解的其他数据或相关问题。
translated by 谷歌翻译
车辆分类是一台热电电脑视觉主题,研究从地面查看到顶视图。在遥感中,顶视图的使用允许了解城市模式,车辆集中,交通管理等。但是,在瞄准像素方面的分类时存在一些困难:(a)大多数车辆分类研究使用对象检测方法,并且最公开的数据集设计用于此任务,(b)创建实例分段数据集是费力的,并且(C )传统的实例分段方法由于对象很小,因此在此任务上执行此任务。因此,本研究目标是:(1)提出使用GIS软件的新型半监督迭代学习方法,(2)提出一种自由盒实例分割方法,(3)提供城市规模的车辆数据集。考虑的迭代学习程序:(1)标记少数车辆,(2)在这些样本上列车,(3)使用模型对整个图像进行分类,(4)将图像预测转换为多边形shapefile,(5 )纠正有错误的一些区域,并将其包含在培训数据中,(6)重复,直到结果令人满意。为了单独的情况,我们考虑了车辆内部和车辆边界,DL模型是U-Net,具有高效网络B7骨架。当移除边框时,车辆内部变为隔离,允许唯一的对象识别。要恢复已删除的1像素边框,我们提出了一种扩展每个预测的简单方法。结果显示与掩模-RCNN(IOU中67%的82%)相比的更好的像素 - 明智的指标。关于每个对象分析,整体准确性,精度和召回大于90%。该管道适用于任何遥感目标,对分段和生成数据集非常有效。
translated by 谷歌翻译